Giới thiệu về Mô hình Hóa Sinh: Vượt xa sự Phân biệt
Chúng ta đang chuyển từ mô hình hóa phân biệt, giải quyết các bài toán phân loại và hồi quy bằng cách học xác suất có điều kiện $P(y|x)$, sang lĩnh vực tinh vi hơn của mô hình hóa sinh ra. Mục tiêu cốt lõi của chúng ta hiện giờ chuyển sang ước lượng mật độ: học ước lượng phân bố dữ liệu nền tảng đầy đủ $P(x)$ một cách trực tiếp. Sự thay đổi căn bản này cho phép chúng ta nắm bắt các mối quan hệ phức tạp và cấu trúc tinh vi bên trong các tập dữ liệu nhiều chiều, vượt qua việc phân tách biên giới đơn thuần để đạt được hiểu biết thực sự và tổng hợp dữ liệu.
1. Mục tiêu của mô hình hóa sinh ra: Mô hình hóa $P(x)$
Mục tiêu của một mô hình hóa sinh ra là ước lượng phân bố xác suất $P(x)$ mà dữ liệu huấn luyện $X$ xuất phát từ đó. Một mô hình hóa sinh ra thành công có thể thực hiện ba nhiệm vụ then chốt: (1) Ước lượng mật độ (gán điểm xác suất cho một đầu vào $x$), (2) Lấy mẫu (tạo ra các điểm dữ liệu hoàn toàn mới $x_{new} \sim P(x)$), và (3) Học đặc trưng không giám sát (phát hiện các biểu diễn có ý nghĩa, tách biệt trong không gian tiềm ẩn).
2. Phân loại: Xác suất rõ ràng vs. Ẩn dụ
Các mô hình hóa sinh ra được phân loại cơ bản dựa trên cách tiếp cận hàm khả năng. Mô hình mật độ rõ ràng, ví dụ như Mã hóa tự biến thiên (VAEs) và Mô hình Dòng, định nghĩa một hàm khả năng toán học và cố gắng tối đa hóa nó (hoặc cận dưới của nó). Mô hình mật độ ẩn dụ, nổi tiếng nhất là Mạng đối kháng sinh ra (GANs), bỏ qua hoàn toàn việc tính toán khả năng, thay vào đó học một hàm ánh xạ để lấy mẫu từ phân bố $P(x)$ bằng khung huấn luyện đối kháng.
Mục tiêu: Xác định liệu $x_{new}$ có phải là bất thường (lừa đảo) hay không.
Mô hình phải đánh giá xác suất (hoặc khả năng) $P(x_{new})$. Nếu $P(x_{new})$ thấp hơn ngưỡng trước đó $\tau$, có nghĩa là điểm mới này rất ít khả năng xảy ra theo phân bố đã học của các giao dịch bình thường, thì nó sẽ bị đánh dấu là bất thường.